Curso II – SISSA

Cómputo en paralelo

Objetivo y contenido

Objetivo y contenido

Objetivo: aprender a realizar cálculos paralelos.

  • Cálculo en paralelo en R
    • Paralelización de procesos

Cómputo en paralelo en R

Cómputo en paralelo

El procesamiento de grandes cantidades de datos espaciales puede llevar mucho tiempo. Sin embargo, la mayoría del código de R se ejecuta en un solo procesador. La mayor parte del tiempo esto no es un problema, pero a veces estod procesos pueden:

  • Requerir bastante tiempo

  • Consumir memoria

  • Tomar bastante tiempo al leer o escribir archivos

  • Tomar bastante tiempo al transferir datos

Cómputo en paralelo

Las computadoras tradicionales tienen un solo CPU, que a su vez puede contener múltiples núcleos. Estos procesadores y núcleos pueden realizar cálculos (ten en cuenta que las computadoras modernas pueden tener múltiples procesadores).

Cómputo en paralelo

La siguiente función genera una lista de números primos hasta un número determinado. Esta función fue tomada de stackoverflow.

prime_numbers <- function(n){
   n <- as.integer(n)
   if(n > 1e6) stop("n too large")
   primes     <- rep(TRUE, n)
   primes[1]  <- FALSE
   last.prime <- 2L
   for(i in last.prime:floor(sqrt(n)))
   {
      primes[seq.int(2L*last.prime, n, last.prime)] <- FALSE
      last.prime <- last.prime + min(which(primes[(last.prime+1):n]))
   }
   which(primes)
}

prime_numbers(100)
##  [1]  2  3  5  7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97

Cómputo en paralelo

Utilizaremos la función Sys.time para evaluar el tiempo necesario que lleva esta función para obtener números primos para una secuencia que comienza en 10 y termina en 15,000.

sequence <- 10:15000

# creating an empty vetor
res <- c()

system.time({
  for(i in sequence){
    res[[i]] <- prime_numbers(i)
  }
})
##    user  system elapsed 
##  49.104   0.138  49.461

Cómputo en paralelo

Para paralelizar el código, utilizaremos el paquete doParallel. Este paquete proporciona funciones para la ejecución paralela de código R en máquinas con múltiples núcleos o procesadores o múltiples computadoras.

library(doParallel)

Tenemos que indicar el número de núcleos que se utilizarán. Para ello, podemos usar la función detectCores.

detectCores()
## [1] 12

Cómputo en paralelo

No se recomienda utilizar todos los núcleos para que tu computadora no se bloquee. Por lo tanto:

cores <- detectCores() - 1

Después, tenemos que registrar el backend paralelo. Para ello, utilizaremos la función registerDoParallel.

registerDoParallel(cores = cores)

Cómputo en paralelo

Finalmente, el proceso iterativo del for for será diferente. En lugar de for, utilizaremos foreach; en lugar de in, utilizaremos =. A continuación, podemos indicar explícitamente qué paquetes se utilizarán con el parámetro .packages (repasaremos esto en el ejemplo). Finalmente, el operador %dopar% debe colocarse antes de abrir el foreach.

La función stopImplicitCluster se puede utilizar en documentos y otros lugares donde es importante cerrar explícitamente el clúster creado implícitamente.

Cómputo en paralelo

sequence <- 10:15000

# Parallel 
cores <- detectCores() - 1
registerDoParallel(cores = cores)

# creando un vector vacío
res <- c()

system.time({
  foreach(i = sequence) %dopar% {
      res[[i]] <- prime_numbers(i)
  }
})
##    user  system elapsed 
## 134.826   2.902  14.329
stopImplicitCluster()

Paralelización de procesos

Paralelización de procesos

Retomando el ejemplo de extracción de precipitación media anual por país, obtengamos la precipitación media anual para todos los países de la cuenca del Nilo.

countries <- "C:/User/Countries/Nile_Basin_Countries_GAUL2014_2.shp"
countries <- vect(countries)
plot(countries, axes = TRUE)

Paralelización de procesos

Al observar los datos, podemos ver que hay áreas en disputa en el shapefile. Como solo queremos los países, podemos excluirlas.

countries <- countries[which(countries$DISP_AREA == "NO"),]
data.frame(countries)
##          STATUS DISP_AREA ADM0_CODE                        ADM0_NAME STR0_YEAR
## 1  Member State        NO       205                           Rwanda      1000
## 2  Member State        NO       133                            Kenya      1000
## 3  Member State        NO        74                      South Sudan      2011
## 4  Member State        NO       257      United Republic of Tanzania      1000
## 5  Member State        NO       253                           Uganda      1000
## 6  Member State        NO        79                         Ethiopia      1000
## 7  Member State        NO        77                          Eritrea      1000
## 8  Member State        NO        43                          Burundi      1000
## 9  Member State        NO        68 Democratic Republic of the Congo      1000
## 10 Member State        NO         6                            Sudan      2011
## 11 Member State        NO     40765                            Egypt      1000
##    EXP0_YEAR Shape_Leng Shape_Area                       Name_label
## 1       3000   8.127003   2.063852                           Rwanda
## 2       3000  48.549430  47.345770                            Kenya
## 3       3000  46.905431  51.599166                      South Sudan
## 4       3000  82.950601  76.860266      United Republic of Tanzania
## 5       3000  23.244416  19.629674                           Uganda
## 6       3000  50.380131  92.869258                         Ethiopia
## 7       3000  50.005783  10.167958                          Eritrea
## 8       3000   9.118459   2.185652                          Burundi
## 9       3000  98.951177 189.998107 Democratic Republic of the Congo
## 10      3000  81.910242 155.888802                            Sudan
## 11      3000  61.251157  89.079113                            Egypt

Paralelización de procesos

Ahora, podemos aplicar la función get_map para cada país. Dado que este proceso seguramente llevará mucho tiempo, podemos paralelizarlo. Primero, aquí está la función get_map.

get_map <- function(raster_paths, shape){
  
  # leyendo los datos
  p_rast <- terra::rast(raster_paths)
  
  # recortando y enmascarando el conjunto de datos ráster
  p_rast <- terra::crop(p_rast, shape, snap = "out")
  p_rast <- terra::mask(p_rast, shape)
  
  # sumando las capas de precipitación
  p_rast <- sum(p_rast)
  
  return(p_rast)
  
}

Paralelización de procesos

Primero, almacenamos las rutas de los archivos ráster en un objeto como hicimos antes. Luego, podemos establecer la ruta de salida donde queremos almacenar los archivos resultantes.

Paralelización de procesos

Construimos el bucle foreach de la siguiente manera:

  • Establecemos el número de núcleos con detectCores
  • Registramos el clúster con registerDoParallel
  • Iniciamos el proceso iterativo foreach
  • Indicamos los paquetes que se utilizarán. En este caso, terra
  • Incluimos el operador paralelo %dopar%
  • Desarrollamos el proceso y exportamos los datos ráster
  • Cerramos el ciclo
  • Cerramos el clúster paralelo si es necesario con stopImplicitCluster

Paralelización de procesos

cores <- detectCores() - 1
registerDoParallel(cores = cores)

foreach(i = 1:nrow(countries), .packages = "terra") %dopar% {
  
  r <- get_map(raster_paths = raster_paths, shape = countries[i,])
  
  n <- countries[i,]$Name_label
  n <- paste0(output, "/", n, ".tif")
  
  writeRaster(r, n, overwrite = TRUE)
  
}
stopImplicitCluster()

Paralelización de procesos

Después del proceso, deberíamos tener los rásteres en la carpeta de salida.

¡Gracias por su atención!